A Case-Based Recognition of Semantic Structures in HTML Documents Which Constitutes a Document Series
نویسندگان
چکیده
منابع مشابه
Automatic Discovery of Semantic Structures in HTML Documents
Template-driven HTML documents posses an implicit, fixed schema denoting concepts and their relationships in a hierarchical fashion. Discovering this schema remains a relatively unexplored problem. By exploiting a key observation that semantically related items in HTML documents exhibit spatial locality, we develop an algorithm for automatically partitioning them into tree-like semantic structu...
متن کاملa cross-comparative dtudy between two textbook series in terms of the presentation of politeness
چکیده ندارد.
15 صفحه اولInformation Extraction from HTML Documents Based on Logical Document Structure
The World Wide Web presents the largest Internet source of information from a broad range of areas. The web documents are mostly written in the Hypertext Markup Language (HTML) that doesn’t contain any means for semantic description of the content and thus the contained information cannot be processed directly. Current approaches for the information extraction from HTML are mostly based on wrap...
متن کاملa comparison of linguistic and pragmatic knowledge: a case of iranian learners of english
در این تحقیق دانش زبانشناسی و کاربردشناسی زبان آموزان ایرانی در سطح بالای متوسط مقایسه شد. 50 دانش آموز با سابقه آموزشی مشابه از شش آموزشگاه زبان مختلف در دو آزمون دانش زبانشناسی و آزمون دانش گفتار شناسی زبان انگلیسی شرکت کردند که سوالات هر دو تست توسط محقق تهیه شده بود. همچنین در این تحقیق کارایی کتابهای آموزشی زبان در فراهم آوردن درون داد کافی برای زبان آموزان ایرانی به عنوان هدف جانبی تحقیق ...
15 صفحه اولExtracting Partial Structures from HTML Documents
The new wrapper model for extracting text data from HTML documents is introduced. In this model, an HTML file is considered as an ordered labeled tree. The learning algorithm takes the sequence of pairs of an HTML tree and a set of nodes The nodes indicate the labels to extract from the HTML tree. The goal of the learning algorithm is to output the wrapper which exactly extracts the labels from...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ژورنال
عنوان ژورنال: Transactions of the Japanese Society for Artificial Intelligence
سال: 2002
ISSN: 1346-0714,1346-8030
DOI: 10.1527/tjsai.17.690